ALCNet

2024-06-10 18:28| 来源: 网络整理| 查看: 265

论文链接：Attentional Local Contrast Networks for Infrared Small Target Detection | IEEE Journals & Magazine | IEEE Xplore

Motivation

红外图像由于相比可见光具备更强的穿透能力，可以减弱雾、烟等障碍，因此在诸多提前预警方面被广泛使用。但由于成像距离较长，目标往往仅以几个像素来呈现，无法提供足够的纹理及形状信息。

在面对目标本身信息缺失的情况，传统方法往往会在相邻帧中假设背景为静态或者选取某个一致的目标，以此利用目标在图像序列中的时空连续性对目标进行检测。但该方法在面对高速移动的目标如超音速飞机时难以使用，因为目标速度过快，在相邻帧中不再存在一致性。因此对单帧图像中的小目标检测越发被重视。

传统方法在面对单帧检测时，一般会将小目标视为缓慢变化的背景中的outlier，从而通过计算相关度的方法将其取出。因为背景变化较为缓慢，因此背景像素与其邻域具有较高的相关性。然而在实际的图像中会存在大量的distractor干扰模型的检测。传统方法仅仅使用了空间域的灰度信息，而没有充分利用真实目标与distractor之间的语义信息差异，从而容易受到distractor的影响，只有在面对显著性较高的目标时才能有较好的表现。此外，传统方法对参数设计较为敏感，不利于整体的调试。

此外，单帧的红外图像小目标数据的不足也限制了大多数数据驱动的深度学习网络在这方面的发挥，即便拥有了足量的数据，纹理及形状信息的缺失也会成为深度学习方法的拦路虎，难以施展其特征提取能力。

因此本文作者在此前发表了一个单帧红外小目标数据集SIRST，并将其用于本文的网络训练与测试。在本文中，作者将深度网络与模型驱动的方法相互融合为一个端到端网络，意在解决红外小目标检测遇到的特征不足的问题。网络的设计主要有一下3点：

基于特征图循环位移的方法，设计了一套加速策略，通过该方法，作者将局部对比度度量的方法模块化为一个无参数的优化网络层，并以此打破了小卷积核带来的感受野限制，实现了长距离的上下文信息互动。为强调小目标的特征信息，除了调整网络的下采样策略，还使用了一个自底向上的注意力调制模块(BLAM)，可以将底层的细节特征编码入高层特征中，为深层网络层使用。在语义任务中使用了层间特征图融合的方法。

网络的具体设计将在下文中展开。

模块化局部对比先验(local contrast prior)

这部分中主要介绍如何将基于patch的局部对比度度量设计为非线性的特征优化网络。主要的难点有二：如何避免不适用于端到端网络的基于patch的局部对比度度量；如何在特征图上快速计算局部对比度。

A.空洞局部对比度测量(dilated local contrast measure)

传统的局部对比度度量通常是使用像素点的邻域，即patch的信息进行计算，如图1(a)所示。但是这样的计算方法并不适用于端到端的网络，因此作者借鉴了空洞卷积的思想，提出了空洞局部对比度度量的方法，如图1(b)所示。同时引入的还有对应的扩张率超参，对应传统方法中patch的大小。

图1 空洞局部对比度

公式化表示则是，给定中间层特征 $F \in \mathbb{R}^{C \times H \times W}$ ，以及特征图中的一个坐标 $(c, i, j)$ 和空洞率 $d$ ，则可以计算对应方向的局部对比度：

$D^{(x,y)}_{[c,i,j]} = (F_{[c,i,j]} - F_{[c,i-x,j-y]}) \cdot (F_{[c,i,j]} - F_{[c,i+x,j+y]})$

(1)

其中 $(x,y) \in \Omega = \{(-d,-d),(-d,0),(-d,d),(0,-d)\}$

进一步，该像素的局部对比度为

$C^{d}_{[c,i,j]} = \min_{(x,y) \in \Omega} \{ D^{(x,y)}_{[c,i,j]}\}$ (2)

B.循环位移加速策略(cyclic shift accelarating scheme)

此前计算局部对比度的MPCM方法通过事先设置的8个滤波器来实现式(1)的对比度计算功能，这样逐个计算会带来较大的计算复杂度。因此作者提出对特征图进行循环位移，通过张量点乘的方法实现式(1)的计算。关于位移方法，论文中给出的图解如图2所示，其中箭头尾部为原特征图 $F$ ，箭头指向为位移变换后的特征图 $S$ ：

图2 循环位移方法

该图解并不十分易懂，因此这里将其拆分开来，以便理解。以生成 $S(-d,-d)$ 为例，如图3所示，在点 $(d,d)$ 将 $F$ 分割成4块区域，并按图3右侧方式重新拼接得到 $S(-d,-d)$ 。

图3 循环位移详解-S(-d,-d)

这样的话，若将两者相减，则有

$\{F - S(-d,-d)\}_{[i,j]} = F_{[i,j]} - F_{[i+d,j+d]} \qquad i,jd$ (3)

类似地其他7中情况也可得到对应的结果。再将对应张量进行点乘就可实现式(1)中的相乘，即

$D^{(x,y)} = (F - S_{(x,y)}) \otimes (F - S_{(-x,-y)})$

该策略相比于MPCM方法就可以省去滤波这一步，节省大量的乘法与加法次数。

但这样显然会存在一个问题，即图3中只有 $F$ 绿色区域对应坐标的像素点满足式(3)，其他部分则会在 $F_{[i+d,j+d]}$ 的坐标中出现 $-h$ ， $-w$ 抑或两者兼具，这样的问题在其他7种位移方式中显然也存在。因此作者给出了使用该策略的一个前提假设：特征图的边缘是平滑的，并且各个边缘之间具有相似性。在这个假设之下，边缘部分的背景不会因为与另一个边缘的背景差异较大而出现较大的对比度。

作者也对该假设的合理性进行了论述：首先，原始的红外图像在局部与非局部都具有较强的相关性；其次，在经过一系列卷积神经网络的特征提取之后，背景会得到抑制，从而使其具备较强的相似性。

最后，局部对比度为4个方向 $D$ 的最大值： $DLC(F,d) = \max_{(x,y) \in \Omega} D^{(x,y)}$

多尺度局部对比度度量(multiscale local contrast measure)

与神经网络中通常存在多尺度的检测一样，作者在网络中添加了多尺度的局部对比度模块，用于综合多个不同尺度下特征图中的局部对比度。在这里不同尺度通过不同膨胀率 $\{ d_1, d_2, ..., d_D \}$ 来表示。该模块的示意图如图4所示，首先在特征图上计算不同膨胀率对应的局部对比度，然后将得到的结果concat起来，并在不同尺度上进行scale max pooling，即尺度最大池化，也就是在相同点位选取不同尺度下最大的局部对比度值。最后使用一个squeeze去除多余的维度就得到了MLC的结果。

图4 MLC模块

直接在尺度层面进行最大池化在传统方法下很容易带来虚警，因为传统方法提取的特征较为简单。但是在使用卷积神经网络提取特征的情况下，这样的问题会得到较好的缓解。

注意力局部对比度网络(attentional local contrast network)

这是作者在本文中提出的网络框架，通过该网络框架，作者致力于解决以下问题：如何在高层网络中突出红外小目标；如何解决小目标与背景之间的不平衡问题。

A.自底向上局部注意力模块(Bottom-up Local Attentional Module, BLAM)

在通常的卷积神经网络中，随着网络层数的增加，网络对输入的语义特征提取能力越强，但是同时，随着下采样次数的增加，网络对小尺度的目标的空间信息容易丢失。BLAM模块的提出就是为了兼顾鱼和熊掌，在取得深层语义信息的同时保留小目标的空间信息。

图5 BLAM模块

BLAM模块的结构如图5所示，其中 $X$ 为带有较为精细位置信息的浅层特征， $Y$ 是带有语义信息的深层网络。首先将 $X$ 通过两个 $1 \times 1$ 卷积网络（带有BN和ReLU），即进行通道注意力的操作，再将其与 $Y$ 点乘，并将结果再与 $X$ 相加，得到模块的输出结果。

B.整体网络框架

文中的网络backbone使用的是ResNet-20，但是减少了其中下采样的次数，整体的网络如图6所示。各个stage的具体信息如图7所示，各个stage中包含一定量的残差模块。

图6 ALCNet网络结构

图7 网络具体信息

在整体的网络结构中，输入图像仅仅在stage-1和stage-2中被下采样了2次，每个stage的输出都会经过一个MLC模块获得其多尺度下的局部对比度。在结合浅层与深层特征时，首先将stage-2和stage-3的局部对比度输出进行结合，再将结果与stage-1的对比度进行结合，最后进行预测。

C.损失函数

作者在网络中采用的损失函数为soft-IoU，具体为

$l_{soft\_IoU}(p,y) = \frac{\Sigma_{i,j} (p_{i,j} y_{i,j})}{\Sigma_{i,j} (p_{i,j} +y_{i,j} - p_{i,j} y_{i,j})}$

其中 $p$ 为网络输出的预测结果， $y$ 为标签。

【本文地址】

ALCNet

ALCNet

今日新闻

推荐新闻